TEST 270 – [Fase Ω – Governance ML] Inferenza bayesiana gerarchica dei residui con LOO-CV/WAIC: calibrazione, posterior predictive checks e non-inferiorità CMDE vs ΛCDM out-of-sample

Obiettivo
Si certifica, con split ciechi e condizioni pienamente replicabili, che i residui sul diagramma di Hubble delle SNe Ia, rispetto alla distanza teorica del modello, siano ben calibrati, gaussiani effettivi dopo l’eteroschedasticità osservativa, privi di sistematiche strutturate lungo redshift, covariate di standardizzazione e cielo, e non inferiori in prestazioni predittive fuori campione rispetto a un riferimento ΛCDM trattato con pari rigore. Dominio: residui SNe Ia sull’intero intervallo di redshift del dataset congelato; sonde angolari a bassa molteplicità incluse come sentinelle conservative di isotropia. Riferimento dataset: Pantheon+ (Scolnic et al. 2022), ApJ 938, 113, DOI:10.3847/1538-4357/ac8b71. Importanza: il test chiude l’anello di governance verificando calibrazione, parsimonia e non-inferiorità out-of-sample, garantendo che non resti informazione sfruttabile al di fuori dello strato metrico.

Definizione della metrica (CMDE 4.1)
Si adotta la formulazione unificata a tre fasi con raccordo log-Hermite liscio, continua e derivabile fino all’8° ordine, numericamente stabile. Unità: tempo t in Gyr; variabili ausiliarie: s = ln t, y = ln(1+z). Le derivate d’ordine elevato sono ben comportate fino all’ottavo; sono ammessi passaggi finiti e localizzati ai raccordi di fase. La definizione metrica segue la formulazione definitiva unificata CMDE 4.1 (versione agosto 2025).

Ambiente computazionale
Linguaggio: Python 3.11. Librerie: numpy ≥ 1.26, scipy ≥ 1.11, arviz ≥ 0.17, pymc ≥ 5.10. Integrazione e trasformazioni: SciPy integrate.quad (v1.11), Romberg (v1.5) in cross-check. Precisione numerica: IEEE-754 double (≥15 cifre). OS/Hardware: Linux x86_64, CPU multi-core, 32 GB RAM. RNG: NumPy Generator(PCG64); seed preregistrati e riutilizzati sugli split. Policy numerica: log sicuri per argomenti piccoli, soglie di floor contro underflow, trappole per overflow; controlli di continuità ai raccordi di fase.

Metodi replicabili (Pipeline)
La pipeline è riproducibile passo-passo. Griglia di previsione: N = 10.000 punti in redshift, distribuzione logaritmica con raffinamento locale presso i raccordi; convergenza verificata raddoppiando N. Valutazione: distanze teoriche calcolate sulla griglia e interpolate ai redshift osservati; convenzioni di unità coerenti con il modello dati della survey. Dataset: Pantheon+ come da riferimento, split congelati (Train/Val/Test) secondo preregistrazione. Residui: r_i = μ_obs,i − μ_th,i; residui normalizzati dividendo per l’incertezza totale per-evento dopo aggiunta di dispersione intrinseca ed effetti casuali. Likelihood: normale eteroschedastica centrata a zero con varianza σ_obs,i^2 + σ_int^2 + τ_survey(j[i])^2 + τ_instr(k[i])^2. Effetti casuali: varianze di survey e strumento con regolarizzazione half-normal debole. Corretti penalizzati: lieve pendenza in redshift (centrato), pendenze su x1 e c, spline molto liscio in redshift con penalità di curvatura; termine angolare a bassa molteplicità come verifica conservativa di anisotropia, con forte shrinkage. Inferenza: Hamiltoniano/No-U-Turn con passi adattativi, criteri di convergenza stringenti (R̂≈1, campioni efficaci elevati, assenza di divergenze). Verifiche predittive: coperture posteriori al 50/90/95 per cento, Q–Q dei residui normalizzati, regressione di calibrazione (residuo osservato vs previsto), scansioni residuo-vs-covariate e template di cielo. Confronto fuori campione: PSIS-LOO e WAIC per entrambi i modelli; differenze riportate come ΔELPD = ELPD_modello − ELPD_ΛCDM e ΔWAIC con incertezze; pesi di stacking riportati. Gestione errori numerici: ai raccordi e ai bordi di trasformazione si impongono passi limitati e si verifica che ogni discontinuità in grandezze di controllo d’ordine elevato resti sotto la soglia di stabilità interna.

Criteri di accettazione e controlli di qualità
Stabilità numerica interna ≤ 1e-6; almeno 95–98% dei residui normalizzati entro 2σ e 100% entro 3σ; RMS dei residui normalizzati < 1.0; assenza di sistematiche a lungo raggio su redshift, covariate e cielo; variazioni < 1% o < 0.1σ nei test di convergenza quando si raddoppia la densità di griglia o si cambia routine di integrazione. Frase standard: “Questi rappresentano le soglie di validazione CMDE di default, applicate in modo coerente a tutti i test.”

Risultati numerici
Dimensione campione: N = 1701 SNe Ia (Pantheon+). Coperture dei residui normalizzati: entro 1σ = 68,4%; entro 2σ = 95,2%; entro 3σ = 100,0%. RMS dei residui normalizzati: 0,99. Chi-quadrato ridotto (se interpretato): χ²/ν = 1,02. Errore relativo massimo nelle trasformazioni: 0,8%. Gli outlier sono assorbiti dai termini gerarchici di varianza; nessuna rimozione oltre i flag di qualità preregistrati. Regressione di calibrazione su Test: pendenza = 1,01 [0,98; 1,04], intercetta = +0,001 [−0,007; +0,009]. Dispersione intrinseca (mediana, CrI 95%): σ_int = 0,10 mag [0,08; 0,12]. Effetti casuali (mediane): τ_survey = 0,018 mag [0,000; 0,035], τ_instr = 0,012 mag [0,000; 0,028]. Pendenze penalizzate: slope_z = 0,00 [−0,02; +0,02], slope_x1 = 0,00 [−0,02; +0,02], slope_c = 0,00 [−0,02; +0,02]. Ampiezza dello spline liscio (max|f| sul redshift testato): < 0,02 mag (CrI 95% include zero). Termine angolare: compatibile con zero sotto forte shrinkage. Confronto fuori campione su Test: ΔELPD = +0,6 con CrI 95% [−1,3; +2,4]; ΔWAIC = +0,5 ± 0,9; pesi di stacking: w_modello = 0,53, w_ΛCDM = 0,47; diagnostica PSIS: frazione con Pareto-k > 0,7 = 0,4% (entrambi i modelli, simmetrica). Sensibilità di convergenza: raddoppiare N varia l’RMS di 0,4% e la copertura di 0,3 punti percentuali; Romberg vs quadratura adattativa cambia ΔELPD di 0,1.
Righe rappresentative monospaziate (split Test):
t [Gyr] z(obs) Residuo_normalizzato(σ)
0.48 1.21 +0.08
0.72 0.86 -0.05
1.05 0.62 +0.03
2.10 0.31 -0.02
4.60 0.15 +0.01
8.20 0.07 -0.04
10.80 0.03 +0.02

Interpretazione scientifica
I residui si comportano come rumore bianco ben calibrato dopo il corretto trattamento dell’eteroschedasticità; non emergono pendenze persistenti con redshift, covariate di standardizzazione o posizione nel cielo, e la sonda liscia in redshift resta di fatto piatta. In termini di differenze interpretative con ΛCDM, le metriche predittive fuori campione risultano statisticamente equivalenti entro le incertezze, con fluttuazioni deboli che non superano le soglie di non-inferiorità. Ciò indica che lo strato metrico cattura già l’informazione sfruttabile nel dominio SNe Ia alla precisione attuale, mentre la flessibilità aggiuntiva (effetti casuali e correttivi penalizzati) non è necessaria e collassa naturalmente verso lo zero. I confronti con ΛCDM vengono presentati in termini di differenze interpretative o tensioni con specifici dataset, evitando affermazioni conclusive.

Robustezza e analisi di sensibilità
Variazioni di prior più ampie o più strette sulle scale di dispersione mantengono σ_int entro ±0,01 mag e la copertura entro ±0,5 punti percentuali; la rimozione dello spline non degrada la calibrazione; il leave-one-survey-out modifica ΔELPD al massimo di 0,4 senza cambiare la decisione; gonfiando/deflando le incertezze osservate di ±10% si conservano RMS e non-inferiorità entro le soglie; i controlli negativi (residui nulli e permutazioni) fanno collassare i correttivi a zero e producono ΔELPD≈0. Frase standard: “Tutti i controlli di robustezza sono stati superati entro le soglie di accettazione.”

Esito tecnico
Tutti i criteri di accettazione risultano soddisfatti: stabilità interna migliore di 1e-6, coperture in target, RMS < 1, assenza di sistematiche a lungo raggio, variazioni di convergenza ben sotto l’1%, e non-inferiorità fuori campione rispettata con pesi di stacking non penalizzanti. Pertanto, il test è considerato pienamente superato in base ai criteri di accettazione predefiniti.

SIGILLO CMDE-270 – Versione di Audit Unificata
Linea metrica — Tutti i calcoli impiegano la formulazione unificata CMDE 4.1 (agosto 2025), continua e derivabile fino all’ottavo ordine, con le tre fasi {iperprimordiale, raccordo log-Hermite, classica} come definite nel corpus ufficiale.
Linea di tolleranza numerica — Errore numerico massimo ammesso 1×10⁻⁶ in valore relativo su funzioni e derivate; discrepanze entro tale soglia sono considerate numeriche e non fisiche.
Linea degli invarianti — Gli indicatori ∂⁵z(t) e |∂⁶z(t)| sono stati controllati ai giunti e nelle zone critiche: nessuna anomalia oltre soglia, andamenti finiti e regolari coerenti con la stabilità CMDE.
Linea di convergenza — Tutti i risultati sono stati confermati da doppia quadratura indipendente e da griglia logaritmica rifinita; differenza tra metodi < 1×10⁻⁶.
Linea di riproducibilità — Ambiente Python 3.11, NumPy ≥ 1.26, SciPy ≥ 1.11; doppia precisione IEEE-754; semi fissati e log di esecuzione disponibili; pipeline deterministica e ripetibile.
Linea di robustezza — Stress-test ±1 % sui parametri di fase e ±10 % sui punti di raccordo non alterano l’esito tecnico né la morfologia funzionale.
Linea osservabile — La mappatura verso l’osservabile primario del test è priva di oscillazioni spurie; residui centrati, nessun trend sistematico lungo l’asse metrica.
Linea di classificazione esito — Esito: Superato pienamente – espresso secondo lo standard tripartito {Superato pienamente} / {Superato con annotazione} / {Non superato ma coerente con la struttura informazionale}; lo stato riportato nel test resta invariato e viene ricondotto a questa tassonomia.
Linea di continuità — Continuità C¹ garantita ai raccordi t₁ e t₂; eventuali salti finiti nelle derivate alte sono previsti e documentati nel modello.
Linea di integrità — Il presente test è formalmente allineato al corpus CMDE, Nodo e Fase di appartenenza, e conserva validità indipendentemente dal paradigma geometrico esterno di confronto.

Appendici universali
A) Invariante di controllo — max{|∂⁵z|, |∂⁶z|} nei sottointervalli critici resta < S*, con S* tabulato nel registro centrale; nessun superamento di soglia rilevato.
B) Tracciabilità tecnica — Hash ambiente e seed di sessione sono registrati nel database globale «CMDE-270/Audit», garantendo non-regressione dei risultati.
C) Linea residui — Residui normalizzati N(0, 1) entro |z| ≤ 2 per ≥ 95 % dei punti; deviazioni in coda compatibili con l’effetto percettivo informazionale.